AI如何理解我們的語言：自然語言處理(NLP)

2024 iThome 鐵人賽

DAY 6

AI/ ML & Data

16th鐵人賽 ai nlp 語音辨識

355 瀏覽

隨著人工智慧技術的不斷發展，AI已經能夠像人類一樣理解和生成語言，這背後的核心技術就是自然語言處理（NLP）。無論是客服機器人、語音助手，還是語言翻譯，NLP的應用無處不在。那麼，AI是如何透過NLP技術來理解我們的語言並與我們交流的呢？

一、NLP的工作原理
自然語言處理技術在於理解我們人類表達的內容、透過我們的語言和我們溝通，它的用途相當廣泛，包括文本處理及分類、識別文字或車牌、語言翻譯以及作為客服機器人和我們對話等，都是由這個技術所包辦。

n-gram模型：計算前n個單詞出現的頻率預測下一個單詞，但是有時候我們必須仰賴上文才能推測下文，這種模型沒辦法取得較遠的上文（這種現象稱為長距離依賴）法。
深度學習模型：能解決長距離依賴的問題，像是Transformer和之前提過的LSTM就是其中一種。

生成模型：根據上下文生成文本生成新文本，像是之前提過的RNN（循環神經網絡），它能夠處理序列數據，很適合生成任務。另外，Transformer模型是目前最先進的生成模型架構，能夠並行計算，加速訓練和推理。
規則基系統：根據固定的語法規則和模板生成語句，常用於自動報告生成和問答系統。

<Transformer架構- BERT和GPT>
Transformer架構是一種專門處理序列數據的深度學習模型，是現代NLP模型的基礎架構、更可以說是NLP中不可或缺的核心技術，AI之所以能如此自然地和我們溝通都仰賴於Transformer的誕生。
核心：

自注意力機制（Self-Attention Mechanism）
理解序列中每個詞與其他詞之間的關聯，相比於之前提過也可以儲利序列數據的RNN，它可以同時考慮句子中所有單詞的關係，而不依賴於詞語的順序，這也是為什麼它能解決n-gram長距離依賴的問題。
此外，注意力機制分成多個「頭」來並行計算不同部分的注意力權重，這樣能夠關注句子的不同方面，又更增強了其捕捉語義的能力。
Encoder-Decoder結構：
編碼器：將輸入的句子轉換成特徵向量，主要用於理解句子的結構和語義。
解碼器：基於編碼器的輸出來生成新的序列，用於生成語言或翻譯等任務。

BERT、GPT都是Transformer架構的模型，但是目標不同：

BERT（Bidirectional Encoder Representations from Transformers）
只使用Encoder、專注於理解語言，同時考慮句子的前後文來預測隱藏的單詞，適合文本分類、問答等。
GPT（Generative Pre-trained Transformer）
只使用Decoder、專注於生成語言，它通過從左到右依次生成文本，適合創造句子、寫作等。

二、AI語音助手：語音識別與生成技術

-STEP 1- 語音輸入：語音被捕捉並轉換為數字信號。

-STEP 2- 語音識別（ASR, Automatic Speech Recognition）：將語音信號轉換為可供AI理解的文字

-STEP 3- 自然語言處理（NLP）：理解語句的意圖，並決定如何回應。

意圖識別：分析文本輸入，識別用戶的意圖，包括基本的問答、語音命令（如開燈、設置鬧鐘）等。
（深度學習模型如RNN、LSTM或Transformer通常用於這一階段，確保AI理解句子中的語義和上下文）
命名實體識別：識別句子中的關鍵實體，如人名、地點、日期等。
例如：「今天下午三點設鬧鐘」，AI需要識別「今天下午三點」作為時間。
上下文管理：管理對話上下文，以便在多輪對話中保持連貫。
例如：若用戶問「明天的天氣如何？」，AI需要知道“明天”指的是哪個具體的時間。

-STEP 4- 任務執行：開始執行某個任務（如設置鬧鐘、查詢天氣）或生成回應的文字。

-STEP 5- 語音生成（TTS, Text-to-Speech）：轉換為語音，並回放給用戶

TTS模型可以調節語調、節奏和音色來將文本轉化為連貫、自然的語音，使語音聽起來更加自然，模仿人類說話的方式。

從語音助手到智能客服，這些應用不斷改變我們的生活方式，也為未來帶來更多的可能性。隨著技術的進一步提升，AI將能更加精準和高效地回應我們的需求，未來人機之間的交流或許將會變得更加無縫和智慧，為我們的日常生活帶來更多便利。